Автоматическая визуализация текста
Ранние формы начертательного письма, такие как пиктограммы и идеограммы, представляли собой графические изображения предметов или идей на простых носителях информацииА. А. Реформатский (2015), Введение в языкознание, ISBN 978-5-7567-0807-3: на камнях, на кусках дерева, позднее — на папирусе, бумаге, коже. Переход от пиктографии к идеографии связан с потребностью графической передачи того, что не обладает наглядностью и не поддается рисуночному изображению. Потребность убыстрения письма и возможность передавать более сложные по содержанию и длинные по размерам тексты привели к схематизации рисунков, к превращению рисунков в условные значки — иероглифы. Примером известной иероглифической и идеографической системы записи является китайское письмо. Примером современной системы идеографического письма является блиссимволика''C. K. Bliss (1978), Semantography: Blissymbolics, ISBN 0-9595870-0-4, предложенная Ч. Блиссом в 1942 году. В отличие от большинства естественных языков, блиссимволика разработана исключительно в качестве семантической системы письменности и не предполагает фонетической реализации. С появлением вычислительной техники, особенно мини- и персональных компьютеров, исследователи всерьёз заинтересовались проблемой автоматического построения графического изображения по тексту на естественном языке, лежащей на стыке областей искусственного интеллекта, прикладной лингвистики и компьютерной графики. Классификация и предпосылки Системы автоматической визуализации встречаются в литературе под разными названиями, обозначающими одно и то же понятие: системы синтеза изображения по тексту, text-to-scene synthesis systems, text-to-picture synthesis systems (TTP-системы). Исторически, ''системы автоматической визуализации текста появились в качестве разновидности систем общения в конце XX века на волне значительных успехов в области формальных грамматик, построения систем общения и логического вывода. Сегодня можно выделить три класса таких систем: (1) системы пространственного вывода, (2) предметно-ориентированные системы, и (3) системы иллюстрирования текста. Классификация систем автоматической визуализации текста приведена на рис. 1.1. При возможности, в обзор включены ссылки на сайты соответствующих проектов и продуктов. Файл:TTP-Classes.jpg Первые системы автоматической визуализации текста появились в 60–70-х годах XX века и решали задачу пространственного вывода, выполняя построение двухмерного или трёхмерного изображения на основе текстового описания сцены или обстановки в пространстве. Входным текстом в данном случае является относительно короткая последовательность предложений, явным образом перечисляющая объекты и их взаимное расположение. Со временем, функциональность систем этого класса стала вырастать, появились богатые возможности по созданию анимации, использованию библиотек трёхмерных моделей, применению эффектных средств трёхмерной графики и других современных мультимедиа-технологий. Бурное развитие систем пространственного вывода привело к появлению в начале 2000-х годов предметно-ориентированных систем, сосредоточенных на воспроизведении точного визуального образа по тексту на ограниченном естественном языке в строго определённой предметной области. Такие системы используются в предметных областях, где текстовое описание какого-либо процесса или объекта не сводится лишь к перечислению его пространственных характеристик, но состоит из однозначных и однотипных фраз или оборотов. Примерами таких предметных областей являются САПР и рапорты о ДТП. В конце 2000-х годов благодаря широкому распространению Интернета, цифровых фотокамер и сканеров изображений, началась разработка систем иллюстрирования текста, ориентированных на автоматическую генерацию отдельных рисунков или целых визуальных коллажей, покрывающих основной смысл неконтролируемого входного текста, и дополняющих его построенной иллюстрацией. Такие системы применяются в медицинской реабилитации, в рекламе, при обучении иностранному языку, и в других областях. Все три класса систем продолжают развиваться и сегодня, занимая свою нишу и достаточно успешно решая поставленные перед ними задачи. Как уже упоминалось в предыдущем разделе, предшественниками систем автоматической визуализации текста являются системы общения, также известные как вопрос-ответные системы. Работы Р. Кирша и С. Коулза середины 60-х годов XX века посвящены первым попыткам построения двумерных рисунков из простых геометрических фигур в англоязычных системах общенияR. A. Kirsch (1964), Computer Interpretation of English Text and Picture PatternsL. S. Coles (1968), An On-line Question-answering Systems with Natural Language and Pictorial Input. В процессе обработки входного текста выполнялся его синтактико-семантический анализ; генерация графических примитивов осуществлялась на основе результатов такого анализа. Известно и о применении теории лингвистических моделей «Смысл ⇔ Текст» для решения аналогичной задачи для русского языка А. П. Ершовым, И. А. Мельчуком и А. С. Нариньяни в 70-х годах XX векаA. P. Ershov, I. A. Mel'chuk, A. S. Nariniany (1975), RITA: An Experimental Man-computer System on a Natural Language Basis. В конце 60-х годов XX века развитие компьютерной лингвистики серьёзно пострадало из-за пессимистичного отчёта комитета ALPAC в 1966 году. В отчёте заявлялось о недостаточной результативности исследований прошедших десяти лет, что привело к значительному сокращению финансирования исследований по автоматической обработке естественного языка вплоть до 70-х годовJ. Hutchins (2003), ALPAC: The (In)Famous Report, ISBN 0-262-14074-8. Системы пространственного вывода Важным предком всех систем пространственного вывода является система понимания естественного языка SHRDLUT. Winograd (1972), Understanding natural language, разработанная Т. Виноградом в начале 70-х годов XX века в Массачусетском технологическом институте, США. Система SHRDLU взаимодействовала с пользователем в интерактивном режиме путём интерпретации введённых им предложений на английском языке, и выполняла операции по созданию и перемещению «блоков»: геометрических тел в простой сцене. В целях поддержания контекста, SHRDLU хранила состояния объектов в памяти, и благодаря этому была способна отвечать на простые вопросы о взаимном положении имеющихся тел. Оригинальная версия SHRDLU работала в монохромном режиме, однако хорошо известна модификация этой системы исследователями из Университета Юты, США, генерирующая и цветные изображения. SHRDLU была яркой демонстрацией успехов искусственного интеллекта как научной дисциплины, однако возможости системы по восприятию более сложных сцен были жёстко ограничены встроенным примитивным миром «блоков». В работе Д. Брауна и Б. Чандрасекарана, опубликованной в 1981 году, широко обсуждается состояние исследований в области автоматического синтеза изображения по тексту и предлагается использовать дополнительные знания о природе визуализируемых объектов и предложена таксономия уровней представления объектов на сценеD. C. Brown & B. Chandrasekaran (1981), Design Considerations for Picture Production in a Natural Language Graphics System. Предложенная таксономия отражает взаимосвязь инструментов компьютерной графики и сведений о взаимных отношениях объектов. Дж. Адорни, М. Ди Манцо и Ф. Гюнчиглиа из Университета Генуи, Италия, в 1984 году создали систему NALIG (от англ. natural language driven image generation, генерация изображения по тексту на естественном языке), выполняющую построение статических изображений для простых предложений на итальянском языкеG. Adorni, M. Di Manzo & F. Giunchiglia (1984), NAtural Language driven Image Generation. Большое внимание в этой работе уделялось вопросу разрешения неоднозначности семантического представления сцены и механизму логического вывода. Спустя шесть лет, в 1992 году, А. Ямада, Т. Ямамото, Х. Икеда, Т. Нишида и С. Дошита из Университета Киото, Япония, представили систему SPRINT (от англ. spatial representation interpreter, интерпретатор представления в пространстве) для японского языкаA. Yamada et al. (1992), Reconstructing Spatial Image from Natural Language Texts. В систему SPRINT встроена система знаний о различных характеристиках изображаемых объектов, подготовленная вручную. Ш. Клэй из Silicon Graphics и Дж. Вильгельмс из Калифорнийского университета в Санта-Крузе, США, в 1996 году разработали систему Put (от англ. класть), позволяющую оперировать с графической сценой как при помощи одноимённого языка сценариев, так и при помощи предложений на английском языкеS. R. Clay & J. Wilhelms (1996), Put: Language-Based Interactive Manipulation of Objects. Примечательно, что для растеризации изображения применялась среда IRIS GL от Silicon Graphics, на основе которой впоследствии был создан OpenGL. Работа А. Макерджи, К. Гупта, С. Наутиял, М. Сингх и Н. Мишра, датируемая 2000-м годом, посвящена пространственному выводу в условиях неопределённости относительного расположения объектов и демонстрирует систему Virtual Director (англ. виртуальный режиссёр), успешно визуализирующую англоязычные тексты о расположении объектов на участке земли в паркеA. Mukerjee et al. (2000), Conceptual description of visual scenes from linguistic models. Популярная система WordsEye, разработанная в 2001 году Р. Койном и Р. Спроутом из AT&T, США, выполняет построение красочных трёхмерных сцен по тексту на английском языке с учётом различных метафор и с использованием полноценной библиотеки трёхмерных моделейR. Coyne & R. Sproat (2001), WordsEye: An Automatic Text-to-scene Conversion System. Большинство последующих систем визуализации текста, не только систем пространственного вывода, были либо созданы, либо находились под заметным впечатлением от WordsEye. Стоит также отметить, что WordsEye — одна из немногих систем визуализации текста, доступных публично через Интернет. В начале 2000-х годов возник важный подкласс систем пространственного вывода — системы анимации текста. Р. Лю и С. Жанг в 1999 году разработали систему SWAN для интерактивной визуализации пьес, и в обзорной работе спустя два года обозначили, что системы анимации текста того времени не были готовы к практическому применению и требуется дополнительное исследование вопросов машинного понимания текста и временно́го планирования взаимодействия объектовR. Lu & S. Zhang (2001), Overview of Research on Computer Animation and Related Topics. Дж. Кассель, Г. Вильхьямссон и Т. Бикмор из Массачусетского технологического института, США, представили в 2001 году систему BEAT (от англ. behavior expression animation toolkit), интерактивно моделирующую поведение виртуального телеведущего в студии во время эфира с использованием синтеза речи, мимики и жестовJ. Cassell, H. H. Vilhjálmsson & T. Bickmore (2001), BEAT: The Behavior Expression Animation Toolkit. З. Зенг, К. Мейди и Н. Гух из университета Вулверхемптона, Великобритания, в 2003 году описали систему 3DVE (от англ. three dimensional virtual environment, трёхмерная виртуальная среда), строящую статические трёхмерные изображения по тексту на английском языкеX. Zeng, Q. H. Mehdi & N. E. Gough (2003), Shape of the Story: Story Visualization Techniques. Ключевая особенность системы 3DVE состоит в оперировании визуальными параметрами объектов сцены. Упоминания заслуживает выбор авторами языка VRML для представления трёхмерной сцены. М. Ма и П. Мак Кевитт из Университета Ольстера, Великобритания, в 2006 году представили систему CONFUCIUS, которая ориентирована на построение трёхмерных сцен по текстам из одного предложения с точным распознаванием текстового описания жестов, действий и времени их происхожденияM. Ma & P. Mc Kevitt (2006), Virtual human animation in natural language visualisation. Важной особенностью этой работы является концепция «визуальной валентности» глаголов, связывающая действие с его субъектами и объектами. Л. Северски и Л. Йин из Бингемтонского университета, США, в том же 2006 году создали систему пространственного вывода с голосовым вводом на основе трёхмерных моделей, доступных во Всемирной паутине. Это единственная известная система визуализации текста, использующая для построения трёхмерного изображения воксели вместо полигоновL. M. Seversky & L. Yin (2006), Real-time Automatic 3D Scene Generation from Natural Language Voice and Text Descriptions. Д. Рамамонджисоа из Иватского университета, Япония, в 2007 году предложил использовать онтологии в форматах Семантической паутины для описания характеристик объектов и их взаимодействия на сценеD. Ramamonjisoa (2007), Designing and Implementing Knowledge Bases for Narrative Animations System. Всё это время средства компьютерной графики и обработки естественного языка развивались особенно быстро, что привело к появлению в 2010-х годах двух промышленных систем анимации текста. Система «Киноязык», разработанная совместными усилиями российских компаний ABBYY и «Базелевс Инновации» в 2012 году, создаёт трёхмерные короткометражные мультифильмы по авторскому сценарию на английском языке. Формальное представление текста осуществляется на основе универсальной семантической иерархии, создаваемой специалистами-лингвистами компании ABBYY в закрытых условиях. На сайте проекта имеется приглашение к бета-тестированию продукта, однако научных публикаций по «Киноязыку» обнаружить не удалось. Проект MUSE с центром в Лёвенском католическом университете существует с 2012 года при поддержке седьмой рамочной программы Еврокомиссии, и ставит своей задачей создание системы интерактивного повествования на английском языке с эффектом полного присутствияO. Kolomiyets & M.-F. Moens (2014), Towards Animated Visualization of Actors and Actions in a Learning Environment. Особенное внимание в MUSE уделяется наглядному представлению медицинской информации и детских сказок, но, в целом, декларируется независимость от предметной области. Несмотря на наличие большого количества публикаций и выступлений представителей проекта на различных научных и практических мероприятиях, публичный доступ к демонстрации системы закрыт паролем. Предметно-ориентированные системы Принципиальное отличие класса предметно-ориентированных систем от систем пространственного вывода состоит в их строгой направленности на визуализацию текста явно заданной предметной области, нередко с использованием контролируемого языка. Это позволяет детализировать формальное описание такой предметной области, упростить визуализацию полученной сцены, и потенциально снизить количество языковых феноменов и отношений объектов, необходимых для обработки. Системы визуализации текста в ограниченной предметной области получили своё начало в первой половине 2000-х годов с появления системы CarSim, впервые представленной в 2001 году для французского языкаS. Dupuy et al. (2001), Generating a 3D Simulation of a Car Accident from a Written Description in Natural Language: The CarSim System, затем в 2003 — для английскогоO. Åkerberg et al. (2003), CarSim: An Automatic 3D Text-to-Scene Conversion System Applied to Road Accident Reports, и в 2005 — для шведского языкаR. Johansson (2005), Automatic Text-to-Scene Conversion in the Traffic Accident Domain. CarSim выполняет построение анимационных роликов по текстовым рапортам о дорожно-транспортных происшествиях. М. Аренс, А. Оттлик и Г.-Х. Нейджел из Технологического института Карлсруэ, Германия, в 2002 году создали систему CogViSys, совмещающую сгенерированную на основе текста анимацию движения транспортного средства по проезжей частиM. Arens, A. Ottlik & H.-H. Nagel (2002), Natural Language Texts for a Cognitive Vision System. Система оперирует логикой Хорна при построении машинного представленния текста. Отдельным абзацем хочется отметить применение предметно-ориентированных систем в компьютерных играх на примере популярной компьютерной игры Scribblenauts, разработанной компанией 5TH Cell Media LLC и изданной Warner Bros. Entertainment Inc. в 2009 году. Игровой процесс Scribblenauts происходит с боковой точки зрения и состоит в прохождении интерактивной головоломки путём создания игровых объектов по описанию на английском языке, и последующему взаимодействию с ними. Игра получила широкую популярность, что привело к появлению четырёх продолжений, в том числе с поддержкой многопользовательской игры. Система LAT&CSI, разработанная С. Курбатовым и соавторами в 2012–2014 гг., предназначена для использования в САПР путём трансляции текста на русском языке о строении какой-либо детали в текст на специалированном языке GRASPС. С. Курбатов и др. (2014), TTP-система: интеграция естественного языка и изображений. Интерпретатор языка GRASP отвечает за этап итоговой визуализации и не зависит от содержания исходного текста. Системы иллюстрирования текста Основная задача систем иллюстрирования текста состоит не в точной передаче отношений между объектами в тексте, но в создании иллюстрации — изображения или графического коллажа, каким-либо образом визуально представляющего основное содержание оригинального текста (см. рис.). Дальними предшественниками систем иллюстрирования текста можно считать различные системы пиктографического и идеографического письма, в том числе блиссимволику для письменного общения и программный пакет SymWriter для обучения письму. Общей чертой таких решений является потенциальная независимость от языка исходного текста, что позволяет письменно общаться людям, не знающим родные языки друг друга. Тем не менее, использование таких средств требует ручного подбора изображений и знания специальной нотации, порой сложной для быстрого запоминания. Во второй половине 2000-х годов возникли первые попытки автоматизации иллюстрирования текстов. Д. Йосши, Дж. Вэнг и Дж. Ли из Университета штата Пенсильвания, США, в 2006 году разработали приложение Story Picturing Engine, выбирающее изображение из коллекции заранее размеченных фотоснимков, наиболее соответствующее заданному текстовому описаниюD. Joshi, J. Z. Wang & J. Li (2006), The Story Picturing Engine—a system for automatic text illustration. Группа исследователей из Висконсинского университета в Мадисоне, США, в составе С. Зю, Э. Гольдберга, М. Элдави, Ч. Даера и Б. Строка в 2007 году представили систему автоматического построения визуального коллажа для дополнения письменной речи, ориентированную на применение при медицинской реабилитации людей с расстройствами речиX. Zhu et al. (2007), A Text-to-Picture Synthesis System for Augmenting CommunicationA. B. Goldberg (2008), Easy As ABC?: Facilitating Pictorial Communication via Semantically Enhanced LayoutA. B. Goldberg (2009), Toward Text-to-Picture Synthesis. Разработанная система не имеет явно заданного названия. Система Word2Image, описанная Х. Ли, Ж. Тангом, Г. Ли и Т.-С. Чуа из Национального университета Сингапура, генерирует коллаж из нескольких фотографий, каждая из которых имеет тесное отношение к заданному словуH. Li et al. (2008), Word2Image: Towards Visual Interpreting of Words. Источником фотографий является Flickr — популярная социальная сеть для фотографов. Данная работа отдалённо напоминает визуальную энциклопедию из к/ф «Пятый элемент». Р. Михалци и Ц. Леонг из Университета северного Техаса, США, в 2008 году представили иллюстрированный словарь PicNet и подход к замещению слов на изображения в простых предложенияхR. Mihalcea & C. Leong (2008), Towards Communicating Simple Sentence using Pictorial Representations. Авторы показывают, что применение данного подхода позволяет упростить межъязыковую коммуникацию. Д. Дельгадо, Дж. Магалхеас, Н. Корреиа предложили систему визуализации новостей, упрощающую их чтениеD. Delgado, J. Magãlhaes & N. Correia (2010), Assisted News Reading with Automated Illustration. Ранняя версия системы Utkus (см. рис.), разработанная Д. Усталовым в 2012 годуD. Ustalov & A. Kudryavtsev (2012), An Ontology Based Approach to Text to Picture Synthesis Systems, представляла собой эксперимент по адаптации к русскому языку подхода, используемого в системе Висконсин-Мадисона с применением онтологий Семантической паутины для описания предметной области и учётом взаимного расположения объектов на двумерной плоскости. Эксперименты показали высокую наглядность изображений при их низкой информативности, поскольку визуализация каждого предложения выполнялась отдельно и система не пыталась выделить наиболее интересные пользователю фрагменты текстаD. Ustalov (2012), A text-to-picture system for Russian language. Аналогичного подхода придерживается и C. Хомич из Томского государственного университета систем управления и радиоэлектроники, чья работа 2014 года также посвящена синтезу изображения по тексту на русском языкеС. Хомич (2014), Формализованное представление текста на естественном языке для системы автоматизированного построения изображений. Ч.-Дж. Хуанг, Ч.-Т. Ли, М.-К. Шан, из Национального университета Тайваня и Национального университета Ченгчи, Тайвань, находясь под заметным влиянием работы Р. Михалци и Ц. Леонга, в 2013 году создали систему иллюстрирования коротких детских сказок VizStoryC. J. Huang, C. T. Li & M. K. Shan (2013), VizStory: Visualization of Digital Narrative for Fairy Tales. Система VizStory разбивает исходный текст на тематические сегменты, определяет ключевые слова и выполняет поиск изображений, релевантно представляющих содержимое каждого сегмента. Интерес к подобным системам имеется и у крупных корпораций. Коллектив японских исследователей состоящий из В. Сонга, Э. Финча, К. Танака-Ишши, К. Ясуда и Э. Симута, представляющие разные организации, в том числе Canon, Inc., в 2013 году создал прототип системы picoTransW. Song et al. (2013), picoTrans: An Intelligent Icon-driven Interface for Cross-lingual Communication. Цель этой системы состоит в упрощении межъязыковой коммуникации путём сочетания техник машинного перевода и пиктографии. П. Джейн, Г. Дарбари и В. Бхавсар из Центра разработки продвинутых компьютерных технологий, Индия, в 2014 году представили систему Vishit для визуализации текстов на языке хиндиP. Jain, H. Darbari & V. C. Bhavsar (2014), Vishit: A Visualizer for Hindi Text. Система Vishit содержит словник, базу правил и хранилище заранее определённых шаблонов сцен. Название системы означает «Солнце перед закатом» на языке хинди. Й. Джианг, Дж. Лью и Х. Лю из Института автоматики Академии наук Китая разработали в 2014 году систему иллюстрирования англоязычных чатов путём генерации для каждого сообщения картинки, представляющую каждое действие или понятие в этом сообщенииY. Jiang, J. Liu & H. Lu (2014), Chat with illustration. Некоторые обороты и фигуры речи выделяются стрелками и отдельными блоками; обнаружение таких грамматических конструкций выполняется при помощи статистического синтаксического анализатора. У. Ли и Х. Зюге разработали подход к автоматическому иллюстрированию текстов новостей и предложили модель целочисленного программирования для определения наиболее связанных понятий, изображений и предложений исходного текстаW. Li & H. Zhuge (2014), Summarising News with Texts and Pictures. Открытые проблемы * Поддержка русского языка. * Практическое применение. Ссылки * WordsEye * Киноязык * MUSE См. также * Размеченная коллекция изображений Примечания Категория:Обзоры Категория:Киноязык